home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1994 March / Internet Info CD-ROM (Walnut Creek) (March 1994).iso / networking / info-service / wais / wais-corporate-paper.text < prev    next >
Encoding:
Text File  |  1991-09-16  |  20.3 KB  |  405 lines

  1. "WAIS Corporate Paper version 3"
  2. MS-Word version available for anonymouse ftp from think.com in
  3. /pub/wais/wais-overview-docs.sit.hqx.  This file is
  4. wais-corporate-paper.text
  5.  
  6.  
  7. An Information System for Corporate Users: Wide Area Information Servers
  8.  
  9.  
  10. Brewster Kahle Thinking Machines Corporation
  11. Art Medlar Scolex Information Systems 8 April 1991
  12.  
  13.  
  14. To explore text-based information systems for corporate executives, four
  15. companies have jointly developed a prototype which gives flexible access to
  16. full-text documents.  The four participating companies are Dow Jones & Co.,
  17. with its premier business information sources; Thinking Machines
  18. Corporation, with its high-end information retrieval engines; Apple
  19. Computer, with its user interface expertise; and KPMG Peat Marwick, with
  20. its information-hungry user base.  
  21.  
  22. One of the primary objectives of the project is to allow a user to retrieve
  23. personal, corporate, and wide area information through one easy-to-use
  24. interface.  For example, instead of using Lotus Magellean(tm) for personal
  25. information, Verity Topic(tm) for corporate data, and Mead Data Dialog(tm)
  26. for published text, one application can access all three categories of
  27. information. The user isn't required to become familiar with several
  28. entirely different systems.  In addition, since the interface consolidates
  29. data from many different sources, they can be manipulated effortlessly,
  30. virtually without regard to their origins.  
  31.  
  32. The Wide Area Information Server (WAIS, pronounced "ways") project is an
  33. experimental venture seeking to determine whether current technologies can
  34. be used to make profitable end-user full-text information systems.  Fifteen
  35. users have been actively using the system for over three months.  They have
  36. integrated it into their workday routine in much the same way as they have
  37. previously integrated spreadsheets and word processors.  This preliminary
  38. success has convinced us that a WAIS-like system can be a valuable tool for
  39. corporate information retrieval.  This paper discusses the design and
  40. implementation of the prototype system.
  41.  
  42.  
  43. Introduction 
  44.  
  45. Electronic publishing is the distribution of textual
  46. information over electronic networks.  It has been emerging as a viable
  47. alternative to traditional print publishing as the necessary underlying
  48. technologies develop.  Among the more essential of these are:
  49.  
  50. * High Resolution Display Screens 
  51. * Reliable, High-Speed Data Communications 
  52. * Desktop Publishing Systems 
  53. * Inexpensive Data
  54. * Storage Media
  55.  
  56. While these technologies have been developed for uses other than electronic
  57. publishing, they are the necessary precursors for full-text retrieval
  58. systems.  
  59.  
  60. From the user's point of view, there are several problems to be overcome.
  61. First, there must be some way of finding and selecting databases from a
  62. potentially unlimited pool.  Second, although these databases my be
  63. organized in different ways, the user should not need to become familiar
  64. with the internal configuration of each one.  Finally, there must be some
  65. practical way of organizing responses on the users machine in order to
  66. maintain control over what may become a vast accumulation of data.  In
  67. addition, developers are faced with a number of architectural issues.  The
  68. system must be scalable; that is, it must allow for the future growth of
  69. both the complexity and number of clients and servers.  It must be secure;
  70. each server's data must be protected from corruption, and the privacy of
  71. the users must be ensured.  Lastly, since an unreliable source is useless
  72. in a corporate environment, access must be thoroughly robust.
  73.  
  74. System Overview 
  75.  
  76. The prototype WAIS system takes advantage of current state-of-the-art
  77. technology, and presents solutions to all of the above problems.  The
  78. system is composed of three separate parts: Clients, Servers, and the
  79. Protocol which connects them.
  80.  
  81. The Client is the user interface, the server does the indexing and
  82. retrieval of documents, and the protocol is used to transmit the queries
  83. and responses, The client and server are isolated from each other through
  84. the protocol.  Any client which is capable of translating a users request
  85. into the standard protocol can be used in the system.  Likewise, any server
  86. capable of answering a request encoded in the protocol can be used.  In
  87. order to promote the development of both clients and servers, the protocol
  88. specification is public, as is its initial implementation.  
  89.  
  90. On the client side, questions are formulated as English language questions.
  91. The client application then translates the query into the WAIS protocol,
  92. and transmits it over a network to a server.  The server receives the
  93. transmission, translates the received packet into its own query language,
  94. and searches for documents satisfying the query.  The list of relevant
  95. documents are then encoded in the protocol, and transmitted back to the
  96. client.  The client decodes the response, and displays the results.  The
  97. documents can then be retrieved from the server.  
  98.  
  99.  
  100. Digital Researcher 
  101.  
  102. The traditional information research scenario is familiar to anyone who has
  103. ever visited a reference desk at a public or corporate library.  The client
  104. approaches a librarian with a description of needed information.  The
  105. librarian might ask a few background questions, and then draws from
  106. appropriate sources to provide an initial selection of articles, reports,
  107. and references. The client then sorts through this selection to find the
  108. most pertinent documents.  With feedback from these trials, the researcher
  109. can refine the materials and even continue to supply the user with a flow
  110. of information as it becomes available.  Monitoring which articles were
  111. useful can help keep the researcher on-track.  
  112.  
  113. The WAIS system is an attempt at automating this interaction: the user
  114. states a question in English, and a set of document descriptions come back
  115. from selected sources. The user can examine any of the items, be they text,
  116. picture, video, sound, or whatever.  If the initial response is incomplete
  117. or somehow insufficient, the user can refine the question by stating it
  118. differently.
  119.  
  120. In addition, the user may also mark some of the retrieved documents as
  121. being "relevant" to the question at hand, and then re-run the search.  The
  122. server recognizes the marked documents, and attempts to find others which
  123. are similar to them.  In the present WAIS system, "similar" documents are
  124. simply ones which share a large number of common words; however, there is
  125. potentially no upper limit on the intelligence of a server in determining
  126. what similarity entails.  This method of information retrieval is called
  127. "relevance feedback." The idea has been around for many years (1) and the
  128. first commercial system utilizing it, DowQuest (2), was voted Database of
  129. the Year by Online Magazine in January 1989.
  130.  
  131.  
  132. User Interfaces: Asking Questions
  133.  
  134. Users interact with the WAIS system through the Question interface.  The
  135. interface may appear different on various implementations: for example, a
  136. character display terminal will have a different look than one which is
  137. capable of displaying bit-mapped graphics.  The key, however, is that the
  138. user need only become familiar with one interface which provides access to
  139. all available information sources.  
  140.  
  141. The WAIS system, in this first incarnation, was designed to be used by
  142. accountants and corporate executives who are relatively untrained in search
  143. techniques.  Consequently, to aid those users who have neither the time nor
  144. desire to learn a special purpose query language, the system uses English
  145. language queries augmented with relevance feedback.  While the system's
  146. servers currently do not extract semantic information from the English
  147. queries, they do their best to find and rank articles containing the
  148. requested words and phrases.  Used in conjunction with relevance feedback,
  149. this method of searching has proven to be more than adequate for the types
  150. of searches and databases typically encountered.  
  151.  
  152. The illustrations here are taken from the initial WAIStation program
  153. produced at Thinking Machines for the Apple Macintosh.  Several other
  154. interfaces are under development at Apple Computer, Dow Jones, and
  155. elsewhere. [omitted in text-only version]
  156.   
  157. * Step 1: Sources are dragged with the mouse into the Question Window.  A
  158. question can contain multiple sources.  When the question is run, it asks
  159. for information from each included source.
  160.  
  161. * Step 2: When a query is run, headlines of documents satisfying the query
  162. are displayed.
  163.  
  164. * Step 3: With the mouse, the user clicks on any result document to
  165. retrieve it.  
  166.  
  167. * Step 4: To refine the search, any one or more of the result
  168. documents can moved to the "Which are similar to:" box.  When the
  169. search is run again, the results will be updated to include documents which
  170. are "similar" to the ones selected.  Contacting Remote Sources of
  171. Information [figure omitted] Figure 1: The Source description contains all
  172. the necessary information for contacting an information server.
  173.  
  174.  
  175. From the user's point of view, a server is a source of information.  It
  176. can be located anywhere that one's workstation has access to: on the
  177. local machine, on a network, or on the other side of a modem.  The
  178. user's workstation keeps track of a variety of information about each
  179. server.  The public information about a server includes how to contact it,
  180. a description of the contents, and the cost.  In addition, individual users
  181. maintain certain private information about the servers they use.  Users
  182. need to budget the money they are willing to spend on information from
  183. particular servers, they need to know how often and when each server is
  184. contacted, and they need to assess the relative usefulness of each server.
  185. This information helps guide the workstation in making cost effective
  186. decisions in contacting servers.  
  187.  
  188. With most current retrieval systems, complications develop as soon as one
  189. begins dealing with more than one source of information.  The most common
  190. problem is that of asking a particular question.  For example, one contacts
  191. the first source, asks it for information on some topic, contacts the next
  192. source, asks it the same questions (most likely using a different query
  193. language, a different style of interface, a different system of billing),
  194. contacts the next source, and so on.  One of the primary motivations behind
  195. the initial development of the WAIS system was to replace replace all this
  196. with a single interface.
  197.  
  198. With WAIS, the user selects a set of sources to query for information, and
  199. then formulates a question.  When the question is run, the system
  200. automatically asks all the servers for the required information with no
  201. further interaction necessary by the user.  The documents returned are
  202. sorted and consolidated in a single place. to be easily manipulated by the
  203. user.  The user has transparent access to a multitude of local and remote
  204. databases.  
  205.  
  206.  
  207. Rerunning Questions -- A Personal Newspaper 
  208.  
  209. In addition to providing interactive access to a vast quantity of
  210. information, the WAIS system can also be used as a rudimentary personal
  211. newspaper.  A virtually unlimited number of queries can be saved, and
  212. updated at periodic intervals.  To do this, the user's workstation is
  213. directed to contact each server at certain set times.  When a source of
  214. information is contacted, any questions referencing that source are updated
  215. with new documents. The users can then easily browse through the results
  216. the next morning.  
  217.  
  218. To make the ideal electronic personal newspaper, a system designer would
  219. need certain technologies which are not available today.  Most computer
  220. screens are too small to allow efficient browsing of large amounts of text.
  221. Additionally, current data transmission speeds do not allow fast enough
  222. scanning if the text is not resident on the user's machine.  
  223.  
  224. Despite current limitations, the WAIS system employs a number of features
  225. which will be found in the personal newspaper of the future:
  226.  
  227. * Cleardisplays of which questions have new documents. 
  228. * Searches performed at night to hide communications delays. 
  229. * Documents stored on disk for future reference. 
  230. * Tools provided to quickly view stored documents.
  231.  
  232. With these techniques, we have established a foundation of user support and
  233. acceptance.  
  234.  
  235.  
  236. Servers 
  237.  
  238. The WAIS system was designed to be used by those who wish to sell
  239. information, as well as those who want to buy it.  It provides a
  240. straightforward mechanism for indexing large amounts of data, making it
  241. available, and advertising the availability.  
  242.  
  243. The system is flexible enough to provide for a variety of billing methods.
  244. A small database maintainer might make the information available through a
  245. telephone connection.  Using a 900 number, the billing would be taken care
  246. of by the phone company.  A slightly more sophisticated site might have a
  247. password and credit card billing system.  High volume servers might want to
  248. set up flat fee contracts with customers.  Other methods will certainly
  249. emerge as use increases.  The system was designed to be as adaptable as
  250. possible to future financial arrangements.  
  251.  
  252. As the dissemination of information becomes easier, questions of ownership,
  253. copyright, and theft of data must be addressed.  These issues confront the
  254. entire information processing field, and are particularly acute here.  The
  255. WAIS system is designed to keep control of the data in the hands of the
  256. servers.  A server can choose to whom and when the data should be given.
  257. Documents are distributed with an explicit copyright disposition in their
  258. internal format.  This is not to say that theft can not occur, but if a
  259. client starts to resell another's data, standard copyright laws can be
  260. invoked.  
  261.  
  262.  
  263. The Directory of Servers 
  264.  
  265. As the WAIS system develops, sources of information will proliferate,
  266. making it impossible for any user to keep track of all servers that may be
  267. available at any one time.  To help solve this problem, Thinking Machines
  268. is maintaining a Directory of Servers in a universally accessible location.
  269. The Directory of Servers contains indexed textual descriptions of all known
  270. servers.  It is queried just like any other source.  Instead of text
  271. documents, however, it returns source structures, specially formatted files
  272. which can be plugged into a question and used for queries.  
  273.  
  274. For example, suppose you needed information concerning the current gross
  275. national product of Mali, but had no idea where to find it.  You might
  276. first ask the directory of servers for "information about the current
  277. economic condition of Mali." The directory would would return several
  278. documents, among them might be a source for the World Factbook, an on-line
  279. almanac maintained by the CIA.  You would then use this document as the
  280. source field of a question, and re-run the query.  This time, the system
  281. would contact the almanac, ask for the information, and return a document
  282. with the data you need.  
  283.  
  284. Additionally. the Directory of Servers provides a means for information
  285. providers to advertise the availability of their data.  When a new source
  286. becomes available, the developers can submit a textual description, along
  287. with the necessary information for contacting the server.  This information
  288. is added to the directory, and becomes available to the public.  
  289.  
  290.  
  291. A Common Protocol for Information Retrieval
  292.  
  293. One of the most far reaching aspects of this project is the development of
  294. an open protocol.  The four companies have jointly specified a standard
  295. protocol for information retrieval.  Creating a market where new servers
  296. can be readily established requires an open, publicly available protocol.
  297. Ideally this protocol would be an internationally standardized, yet
  298. flexible enough to adapt to new ideas and technologies; functioning over
  299. any electronic network, from the highest speed optical connections to phone
  300. lines.  
  301.  
  302. The use of an open and versatile protocol fosters hardware independence.
  303. This not only provides for a much wider base of users, it allows the system
  304. to seamlessly evolve over time as hardware technology progresses.  It
  305. provides incentive to produce the best components possible.  For example,
  306. the protocol provides for the transmission of audio and video as well as
  307. text, even though at present most workstations are unable to handle them.
  308. However, they are free to ignore pictures and sound returned in response to
  309. question, and to display and retrieve only text.  This inability, though,
  310. does not hinder higher-end platforms from exploiting their greater
  311. processing power and network bandwidth.  
  312.  
  313. The WAIS protocol is an extension of the existing Z39.50 standard from
  314. NISO (3). It has been augmented where necessary to incorporate many of the
  315. needs of a full-text information retrieval system (4).  To allow future
  316. flexibility, the standard does not restrict the query language or the data
  317. format of the information to be retrieved.  Nonetheless, a query convention
  318. has been established for the existing servers and clients.  The resulting
  319. WAIS Protocol is general enough to be implemented on a variety of
  320. communications systems.  
  321.  
  322. The success of a WAIS-like system depends on a critical mass of users and
  323. information services.  In order to encourage development and use, Thinking
  324. Machines is not only publishing a specification for the protocol, but is
  325. also making the source code for a WAIS Protocol implementation freely
  326. available.  While this software is available at no cost, it comes with no
  327. support.  We hope that it will facilitate others in developing servers and
  328. clients.  
  329.  
  330.  
  331. Future 
  332.  
  333. In developing the WAIS system, the participating companies have
  334. demonstrated that current hardware technology can be effectively used to
  335. provide sophisticated information retrieval services to novice end-users.
  336. How this might effect information providers is not yet completely
  337. understood.  The users at Peat Marwick found the technology useful for
  338. day-to-day tasks such as researching potential new accounts and finding
  339. resources within their own organization.  Since these tasks are not
  340. restricted to the accounting and management consulting industries, we are
  341. optimistic that this type of technology can be fruitful and productive in
  342. many corporate settings.  
  343.  
  344. The future of this system, and others like it, depends upon finding
  345. appropriate niches in the electronic publishing domain.  Potential uses
  346. include making current online services more easily accessible to end-users;
  347. or allowing large corporations to access their own internal word processor
  348. files more efficiently.  It is also possible that near-term development
  349. will focus on a single professional field such as patent law or medical
  350. research.  
  351.  
  352.  
  353. Summary 
  354.  
  355. A unique alliance of four companies with complementary interests in the
  356. field of information retrieval have jointly developed a prototype which
  357. gives versatile access to full-text documents.  The system allows users to
  358. retrieve personal, corporate, and wide area information through one
  359. easy-to-use interface.  The WAIS project has shown that current
  360. technologies can be used to make useful, profitable, and convenient wide
  361. area information systems. The success of the project has convinced us that
  362. a WAIS-like system can be a valuable tool for corporate information
  363. retrieval.  
  364.  
  365.  
  366. Acknowledgements 
  367.  
  368. The design and development of the WAIS Project has been a collective
  369. effort, with contributions and ideas coming from many people.  Among them:
  370.  
  371. Apple Computer: Charlie Bedard, David Casseras, Steve Cisler, Tom Erickson,
  372. Ruth Ridder, Eric Roth, John Thompson-Rohrlich, Kevin Tiene, Gitta Soloman,
  373. Oliver Steele, Janet Vratny-Watts.  
  374.  
  375. Dow Jones News/Retrieval: Clare Hart, Rod Wang, Roland Laird.  
  376.  
  377. Thinking Machines: Dan Aronson, Franklin Davis, Jonathan Goldman, Chris
  378. Madsen, Harry Morris, Patrick Bray, Danny Hillis, Gary Rancourt, Tracy
  379. Shen, Craig Stanfill, Steve Swartz, Ephraim Vishniac, David Waltz.  
  380.  
  381. KPMG Peat Marwick: Chris Arbogast, Mark Malone, Tom McDonough, Robin
  382. Palmer.  
  383.  
  384. Scolex Information Systems: Art Medlar. 
  385.  
  386. Thanks also to Advanced Software Concepts for TCPack software.
  387.  
  388. ----------------
  389. Footnotes
  390.  
  391. 1 Salton, Gerald; McGill, Micheal.  Introduction to Modern Information
  392. Retrieval.  McGraw-Hill, 1983.
  393.  
  394. 2 DowQuest promotional literature available from Dow Jones & Co. Inc., 200
  395. Liberty Street, New York, NY 10281.
  396.  
  397. 3 Z39.50-1988: Information Retrieval Service Definition and Protocol
  398. Specification for Library Applications.  National Information Standards
  399. Organization (Z39), P.O. Box 1056, Bethesda, MD 20817.  (301) 975-2814.
  400. Available from Document Center, Belmont, CA. Telephone 415-591-7600.
  401.  
  402. 4 Franklin Davis et al.  WAIS Interface Protocol Prototype Functional
  403. Specification, Thinking Machines.  Available from Franklin Davis
  404. (fad@think.com) or Brewster Kahle (brewster@think.com).
  405.